Analiza rynku samochodowego

Author

Marceli Denysiuk

1 Cel projektu

Analiza rynku samochodowego w celu wyłonienia najlepszych segmentów na podstawie parametrów technicznych oraz ocen eksperckich.

1.1 Problematyka

Poszukiwanie ciekawych, praktycznych lub nawet decyzyjnych dla konsumenta wniosków oraz wyłanianie liderów rynku dzięki analizie dostepnęgo zbioru danych.

2 Dane

Mamy zbiór około 3500 wierszy. Zbiór danych pochodzi z amerykańskiego serwisu internetowego zajmującego sie handlem nowych i używanych samochodów. Można by to porównać do polskiego Otomoto, tyle, że tutaj mieliśmy recenzje ekspertów na temat tych samochodów. W kolumnach tekstowych mamy cechy takie jak:

  • Marka i model samochodu

  • Krótkie recenzje ekspertów na temat samochodu

  • Rodzaj skrzyni biegów

  • Rodzaj silnika

  • Rodzaj układu napędowego

  • Mocne i słabe strony samochodu

Natomiast w kolumnach numerycznych mamy:

  • Rok produkcji

  • Liczbę koni mechanicznych

  • Moment obrotowy w NM

  • Ocenę nadaną przez eksperta od 1.0 do 5.0

  • 3 wymiary samochodu

  • Wage samochodu

Pamiętajmy

Pamietajmy, że analiza w dużej mierze opiera sie na subiektywnych odczuciach ekspertów, więc trzeba podchodzić do wniosków z lekkim dystansem.

3 Pytania i Hipotezy

3.1 Najczęściej występujące problemy w samochodach? 

Hipoteza: Najwięcej problemów jest ze złożoną elektroniką.

3.2 Jakie marki są najbardziej lubiane?

Hipoteza: Powielając panujące przekonanie o jakości japońskich marek: najbardziej lubiane są japońskie marki.

3.3 Które samochody są bardziej lubiane - stare, czy nowe?

Hipoteza: Bardziej lubiane są stare samochody.

3.4 Czy moc samochodu ma wpływ na poprawe oceny?

Hipoteza: Moc samochodu nie ma wpływu na poprawe oceny.

4 Czyszczenie danych

Niewyczyszczony zbiór danych:

car.brand car.model manufacturing.year car.full.name strengths weaknesses rating full.description GPT.2.summarization engine_type horsepower torque drive_system transmission length height overall.width.with.mirrors overall.width.without.mirrors curb.weight
chevrolet chevrolet silverado-2500hd 1500 chevrolet silverado-2500hd 1500 ['Stout power and quick acceleration'... ['Dated interior design', 'High, broa... Full-size trucks like the Chevrolet S... Full-size trucks like the Chevrolet S... V8 cylinder 401 hp @ 5,200 rpm 464 lb-ft @ 4,000 rpm rear wheel drive 6-speed shiftable automatic 250.0 in. 79.8 in. 81.9 in. 6,533 lbs.
gmc gmc sierra-1500 1500 gmc sierra-1500 1500 ['Several available powertrains for t... ['Rides rougher than primary rivals',... The GMC Sierra 1500 had a rough star... The GMC Sierra 1500 had a rough star... Inline 4 cylinder 310 hp @ 5,600 rpm 430 lb-ft @ 3,000 rpm rear wheel drive 8-speed shiftable automatic 231.9 in. 75.5 in. 81.2 in. 4,750 lbs.
chevrolet chevrolet silverado-1500 1500 chevrolet silverado-1500 1500 ['Available powertrains cover a wide ... ['Most versions ride a little rougher... Full-size pickup trucks are the most... Full-size pickup trucks are the most... Inline 4 cylinder 310 hp @ 5,600 rpm 430 lb-ft @ 3,000 rpm rear wheel drive 8-speed shiftable automatic 231.9 in. 75.5 in. 81.2 in. 4,740 lbs.
chevrolet chevrolet corvette 1950 chevrolet corvette 1950 ['Impressive power and acceleration',... ['Not the easiest car to get in and o... Since the Chevrolet Corvette's debut... Since the Chevrolet Corvette's debut... V8 cylinder 490 hp @ 6,450 rpm 465 lb-ft @ 5,150 rpm rear wheel drive 8-speed automated manual 182.3 in. 48.6 in. 76.1 in. 3,535 lbs.

4.1 Usunięcie wierszy bez ocen

Z około 3463 wierszy zostaje nam 3044. Wiersze z pustymi silnymi i słabymi stronami zostają, bo te możemy wywnioskować dokonując analizy recenzji ekspertów.

4.2 Czyszczenie horsepower i torque

Usuwamy niepotrzebne dopiski na jakich obrotach sa osiągane maksymalne momenty obrotowe i konie mechaniczne oraz zamieniamy rodzaj kolumn na numeryczne.

... horsepower torque ...
... 401 hp @ 5800 rpm 464 lb-ft @ 4000 rpm ...
... 445 hp @ 2800 rpm 910 lb-ft @ 1600 rpm ...
... 310 hp @ 5500 rpm 365 lb-ft @ 3000 rpm ...

4.3 Konwersja jednostek

Zamiana wartości z cali i stóp na system metryczny w kolumnach gdzie mamy podane wymiary samochodów i ustawienie rodzaju kolumn na numeryczne.

... length height overall.width.without.mirrors curb.weight ...
... 250.0 in. 79.8 in. 81.9 in. 6,533 lbs. ...
... 231.9 in. 75.5 in. 81.2 in. 4,750 lbs. ...
... 231.9 in. 75.5 in. 81.2 in. 4,740 lbs. ...

\(\rightarrow\)

... length(m) height(m) width(m) weight(kg) ...
... 4.79 1.62 1.70 1436.98 ...
... 4.69 1.87 2.02 1740.69 ...
... 4.60 1.43 1.69 1342.63 ...

4.4 Definicja zmiennej Power

Z uwagi na fakt, że liczba koni mechanicznych nie daje nam pełnego obrazu o rzeczywistej “mocy” samochodu, wprowadzamy kolumnę power oznaczajacą moc

\[ \text{power} = \frac{\text{horsepower}}{\text{weight (kg)}} \cdot 100 \]

Kolumna power odzwierciedla stosunek mocy do masy samochodu dając nam ogólny współczynnik (power-to-weight ratio (Gillespie 1992)) dający wyobrażenie o tym jak szybki będzie samochód w rzeczywistości. Pozwala to na obiektywna ocene dynamiki samochodów z różnych segmentów (Bauer 2014).

engine_type horsepower torque power
Inline 4 cylinder 100 133 6.96
V8 cylinder 210 300 12.06
Flat 4 cylinder 130 137 9.68
V8 cylinder 210 300 8.58
Inline 4 cylinder 134 133 9.06
Inline 4 cylinder 130 121 11.24

5 Jakie są najczęściej występujące problemy w samochodach?

5.1 Hipoteza: Najwięcej problemów jest ze złożoną elektroniką.

W celu znalezienia odpowiedzi na to pytanie posłużymy sie kolumną weaknesses, w której mamy gotowe wypisane słabości różnych pojazdów.

Tworzymy liste pojedyńczych słów, odfiltrujemy niepotrzebne spójniki, wypełniacze oraz słowa nie wnoszące nic w kontekście wystepujących problemów. Dzielimy słowa na 2 przedziały ocen z jakimi były związane aby mieć pojęcie co w dużym stopniu zaważyło na ocenie, a co było tylko niedociągnieciem.

5.2 Błędy krytyczne (ocena <3.0)

Najczęstszymi błedami krytycznymi, które znacznie wpłynęły na ocene sa problemy z silnikiem. Zatem warto uważać na wadliwe modele i dokładnie sprawdzać panujące opinie o jednostkach w samochodzie, który chcemy kupić. Drugą ciekawą wadą okazuje się być po prostu cena, czyli jak sie okazuję zdarzają sie modele przepłacone na tyle, że zaniża to całą ocene aż poniżej 3 gwiazdek.

5.3 Błędy mniej znaczące (ocena 3.0+)

Przy obu problemach ukazuje się dość logiczny rezultat: wnętrze, czyli bardzo szeroki zakres: różnego rodzaje plastiki, wyposażenie typu elektryczne szyby, klimatyzacja itd. Narzekanie ekspertów na te rzeczy wydaje się oczywiste bo zawsze można przyczepić sie do tego typu niedociągnięć, szczególnie, że to właśnie wnętrze najbardziej rzuca sie w oczy przy użytkowaniu samochodu. Na drugim miejscu jest słowo “ride”, które w kontekście wypowiedzi negatywnych oznacza wszelakie problemy z uczuciami podczas jazdy typu niewystrojone/za twarde/za miękkie zawieszenie, słabe prowadzenie pojazdu lub znowu problemy wnętrza rzutujące na odczucia z jazdy czyli np. bardzo trudne do obsługi kontrolki rozpraszające kierowce.

Uwaga!

Warto zaznaczyć, że obie chmury słów zostaly przeskalowane tak aby miały ten sam rozmiar na potrzeby czytelności. W rzeczywistości grupa wysokich ocen jest znacznie liczniejsza jak widać na wycinku poniższej tabeli(krytyczne błędy zdarzają sie sporadycznie).

Segment Niskich Ocen
Segment Wysokich Ocen
nr Wada (Krytyczna) Wystąpienia Wada (Drobna) Wystąpienia
1 engine 6 interior 604
2 price 5 ride 371
3 base 4 engine 355
4 expensive 4 space 308
5 hydrogen 4 rivals 293
6 interior 4 competitors 265
7 space 4 quality 245
8 stations 4 fuel 243
9 steering 4 acceleration 233
10 acceleration 3 economy 231
11 cabin 3 steering 222

5.4 Wnioski:

Hipoteza błędna. Pomimo wielu róznych problemów nie ma żadnych wzmianek konkretnie o problemach z elektroniką i mimo, że wnętrze może zawierać właśnie takie problemy, to nie możemy jednozacznie stwierdzić, że własnie o to chodzi. Zatem pozostaje nam fakt, że najwięcej krytycznych problemów generują wadliwe silniki, a najwięcej drobnych problemów jest z wnętrzem samochodów. podsumowanie

6 Jakie marki są najbardziej niezawodne?

6.1 Hipoteza: Powielając panujące przekonanie o jakości japońskich marek: najbardziej niezawodne są japońskie marki.

Założenie

Przyjmujemy założenie: lubiany = niezawodny co oczywiście nie zawsze będzie prawdą, ale sporo upraszcza

Na osi poziomej mamy uśrednione wartości jakie przyjmuje rating (1.0 - 5.0), tutaj mamy też 6, wyłącznie aby zmieścić tekst. Na osi pionowej marki samochodów. Wartości zmiennych na obu osiach są wyliczanie niezależnie od innych lat dla każdego roku. Aktualny lider w danym roku wyróżniony jest złotym kolorem i koroną.

W skrócie: im dłuższa kreseczka, tym wyższa ocena. Na dole widać jak wysoka dokładnie.

Widzimy jak najlepsze 5 marek konkurowalo o najlepsze oceny na przestrzeni lat. Na osi X mamy lata produkcji. Na osi Y sume punktów dla danego roku.

\[ punkty = liczba\;marek\; - \;ranking\; +1 \]

6.2 Punkty?

Miara punktów zwyczajnie odzwierciedla odległość marki od pierwszego miejsca w rankingu. Kluczowe rzeczy:

  • Im wyżej w rankingu - tym więcej punktów.

  • Liczba punktów jest przyznawana każdej marce według wzoru co rok.

Dzięki takiej mierze eliminujemy problemy ze średnią, która zaciera informacje o tym, czy dana marka np. miała kilka dobrych lat i tylko to podnosi jej średnią co daje jej możliwość konkurencji z bardziej konsekwentymi markami, takimi które trzymają poziom cały czas. Dzięki tym punktom możemy na statycznym wykresie zobaczyć “przebieg wyścigu” i widzimy kto z największa konswekwencją zbliżał sie do idealnych wyników.

6.3 Wnioski:

Hipoteza potwierdzona - wygrywa japońska Mazda i w czołówce mamy jeszcze dwóch japończyków (Acura i Toyota). podsumowanie

7 Które samochody są bardziej lubiane - stare, czy nowe?

7.1 Hipoteza: Bardziej lubiane są stare samochody.

Żeby odpowiedzieć na to pytanie zwyczajnie liczymy średnie dla lat 1990-2021. Przyjmujemy założenie, że stare samochody kończą sie po 2010 roku, ale oczywiście każdy różnie zdefiniuje stary samochod. Stawiamy kreskę na końcu 2010 roku aby oddzielić dwie ery. Liczymy średnią dla lat z obu ram czasowych i sprawdzamy która wygrywa.

Widzimy ewidentnie zwycięzce: stare samochody. Nawet w najgorszym momencie stare samochody były bardziej lubiane od nowych. Wynika to prawdopodobnie z wielu komplikacji jakie wprowadziła nowoczesna elektronika w samochodach, która zabiła prawdziwą frajdę z jazdy. Starsze samochody sa prostsze w budowie i mniej skupione na skomplikowanych systemach podatnych na problemy.

7.2 Wnioski:

Hipoteza prawdziwa. Starsze samochody sa bardziej lubiane. podsumowanie

8 Czy moc samochodu ma wpływ na poprawe oceny?

8.1 Hipoteza: Moc samochodu nie ma wpływu na poprawe oceny.

W celu sprawdzenia hipotezy weźmiemy kolumny rating oraz power, która wcześniej sobie przygotowaliśmy. Szukamy zależności pomiędzy tymi dwoma zmiennymi, więc użyjemy scatterplota i spróbujemy na nim dopasowania liniowego, aby wyłonić jakieś trendy. Dopasowanie liniowe zwraca wartości rzeczywiste z przedziału <-1,1> i wygląda to tak:

  • Jeżeli ujemne -> wraz ze wzrostem mocy ocena maleje. (korelacja ujemna)

  • Jeżeli 0 -> brak zależności czyli moc nie ma wpływu na ocenę (to mówi hipoteza).

  • Jeżeli dodatnie -> moc wpływa na wzrost oceny. (korelacja dodatnia)

Współczynnik korelacji jest dodatni, czyli większa moc rzeczywiście wpływa pozytywnie na ocenę samochodu, ale jak bardzo? Wartość 0.32 w tym kontekście to bardzo solidna zależność, zważając, że na ocene wpływa bardzo wiele czynników oprócz samej mocy. Widzimy więc, że moc jest dość ważnym czynnikem wpływającym na ocenę.

8.2 Jedno ale

Zwyczajne dopasowanie liniowe pokazuje pewien trend, natomiast przedział mocy od ekonomicznych samochodzików miejskich aż do super szybkich samochodów sportowych jest bardzo szeroki i zacierają się pewne wnioski.

Dlatego użyjemy podziału kwantylowego - dzielimy oceny na 5 równych przedziałów, każdy po około 600 ocen. Dzięki temu nie patrzymy na wszystko jako jedną całość, a na różne grupy samochodów do różnych zastosowań i jak to sie ma do korelacji mocy z oceną. Tym razem używamy dopasowania LOESS(Locally Estimated Scatterplot Smoothing), które pokaże nam płynną i lokalną linie trendu, a nie taką dopasowaną do wszystkich ocen na raz.

8.3 Punkty odniesienia

Zanim zobaczymy drugi wykres, zobaczmy kilka samochodów o bardzo różnych stosunkach mocy do masy, żeby wiedzieć jakie wartości reprezentują jaką kategorię samochodów.

Grupa 1 (50-80KM)

Grupa 1, autka miejske (power = 6.9)

Grupa 3, rodzinne samochody (power = 10.0)

Początek gr. 5, samochody komercyjne z wyraźnym naciskiem na moc (power = 15.3)

Koniec gr.5, samochody wyścigowe (power = 39.6)

Teraz wygląda to zupełnie inaczej. Dla samochodów o mocach średnich i małych(gr. 1,2,3) mamy bardzo słabe zależności. Na tyle małe, że można by bezpiecznie uznać, że to zwyczajny szum i dla samochodów miejskich lub “komercyjnych” moc nie ma wielkiego wpływu na ocenę. Natomiast sytuacja drastycznie zmienia się gdy wchodzimy w terytorium samochodów sportowych i bardzo mocnych “komercyjnych”. Linia trendu nagle rośnie od końca 4 grupy mocy. Widać dość logiczną zależność: gdy znajdujemy się w sekcji sportowej to moc zaczyna mieć ogrome znaczenie i jej dostatek cieszy oceniających.

8.4 Wnioski:

Hipoteza sprawdza się tylko w grupie aut sportowych i komercyjnych klasy premium/sport. Dla pozostałych samochodów moc nie ma większego wpływu na ocenę. podsumowanie

9 Podsumowanie

Z naszego zbioru danych udało nam się wyciągnąć kilka przydatnych i ciekawych informacji.

Z pierwszego wniosku(Section 5.4) dowiadujemy się że, warto zwracać uwagę na modele silników, bo są to najczestsze przyczyny krytycznych problemów. Wiemy też, że warto przed kupnem skupić się na dogłębnym obejrzeniu wnętrza, bo jest to najczęstsze źródło drobnych, denerwujących problemów.

Z drugiego wniosku(Section 6.3) widzimy, że japońskie marki rzeczywiście są niezawodne, przyjemne w użytkowaniu i co najważniejsze: konsekwentnie utrzymują ten poziom jakości. Wśród liderów mamy też niemiecką technologię: BMW i Audi, lecz pamiętajmy, że są to już marki klasy premium, a Mazda, Acura i Toyota tworzą tańsze, łatwiej dostępne modele. Trzeba zastanowić się, jakie mamy potrzeby - czy chcemy tanie i ekonomiczne auto, które nie będzie pożerać kosztów przez eksploatację, czy raczej nieco droższe w użytkowaniu, ale dające świetne wrażenia z jazdy i dalej niezawonde? W obu przypdkach dostajemy dobry drogowskaz naszego wyboru, mając przed oczami twarde dane pokazujące najbardziej jakościowe i lubiane marki.

Z trzeciego(Section 7.2) wiemy, że starsze samochody (przed 2010 rokiem) są zdecydowanie lepiej oceniane. W szczególności złota era wypada na lata 2004 - 2007, więc warto brać samochody z tych lat jeżeli mamy okazję. Można zastanowić, się czy potrzeba nam czegoś nowego co będzie droższe, bardziej problematyczne w naprawie, ale teoretycznie z nowyszmymi technologiami, czy jednak możemy poszukać samochodu używanego ze starszych lat, który da nam prostotę i większa frajdę z jazdy na koszt utraty nowoczesnej technologii, która często służy jedynie wymyślonym liczbom dla marketingu a nie rzeczywistym ułatwieniom.

Z Ostatniego wniosku(Section 8.4) dowiadujemy się, że z perspektywy osoby szukającej zwyczajnego samochodu miejskiego lub wiekszego rodzinnego sedana/kombi, a nie sportowych wrażeń, moc nie odegra kluczowej roli w przyjemności z użytkowania i powinniśmy raczej skupić się na istotniejszych aspektach, jak chociażby możliwe problemy, o które omawialiśmy w pierwszym pytaniu.

10 Github Repo

https://github.com/vinamon/Car-Data-Analisys

11 Bibliografia

Bauer, Horst. 2014. Bosch Automotive Handbook. John Wiley & Sons.
Gillespie, Thomas D. 1992. Fundamentals of Vehicle Dynamics. Society of Automotive Engineers (SAE).